AI 模型

# AI 模型

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型，具有 100 亿个参数，专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集，包含约 8000 万张合法合规的图像，标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息，并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。

GAIA-2

GAIA-2 是 Wayve 开发的先进视频生成模型，旨在为自动驾驶系统提供多样化和复杂的驾驶场景，以提高安全性和可靠性。该模型通过生成合成数据来解决依赖现实世界数据收集的限制，能够创建各种驾驶情境，包括常规和边缘案例。GAIA-2 支持多种地理和环境条件的模拟，帮助开发者在没有高昂成本的情况下快速测试和验证自动驾驶算法。

CogView4

CogView4 是由清华大学开发的先进文本到图像生成模型，基于扩散模型技术，能够根据文本描述生成高质量图像。它支持中文和英文输入，并且可以生成高分辨率图像。CogView4 的主要优点是其强大的多语言支持和高质量的图像生成能力，适合需要高效生成图像的用户。该模型在 ECCV 2024 上展示，具有重要的研究和应用价值。

olmOCR-7B-0225-preview

Olmocr 7B 0225 Preview

olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型，旨在通过高效的图像处理和文本生成技术，将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调，结合了强大的视觉和语言处理能力，适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途，遵循 Apache 2.0 许可证，强调负责任的使用。

Magic 1-For-1

Magic 1-For-1 是一个专注于高效视频生成的模型，其核心功能是将文本和图像快速转换为视频。该模型通过将文本到视频的生成任务分解为文本到图像和图像到视频两个子任务，优化了内存使用并减少了推理延迟。其主要优点包括高效性、低延迟和可扩展性。该模型由北京大学 DA-Group 团队开发，旨在推动交互式基础视频生成领域的发展。目前该模型及相关代码已开源，用户可以免费使用，但需遵守开源许可协议。

moonshot-v1-vision-preview

Moonshot V1 Vision Preview

Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。它能够准确识别和理解图片中的文字、颜色和物体形状等内容，为用户提供强大的视觉分析能力。该模型具有高效、准确的特点，适用于多种场景，如图像内容描述、视觉问答等。其定价与 moonshot-v1 系列模型一致，根据模型推理的总 Tokens 计费，每张图片消耗的 Tokens 为固定值 1024。

llama-ocr

开源 npm 库，免费使用 Llama 3.2 Vision 进行 OCR，支持本地和远程图像，计划支持 PDF，受 Zerox 启发，有免费和付费接口

开发与工具

X Model

X Model 是一个集成热门主流 AI 模型的平台，用户可以在其产品中轻松接入这些模型。它的主要优点包括多样的模型选择、高质量的输出结果以及简单易用的接入流程。X Model 价格灵活，适用于各种规模的业务。

AuraSR

AuraSR 是基于 GAN 的 Super-Resolution 模型，通过图像条件化增强技术，提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现，并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量，适用于图像处理领域。

乌托邦

乌托邦是一个个性化角色创造平台，致力于打造新一代超拟人 AI 智能体。其主要优点包括更可控、拟人、安全。背景信息显示该产品注重用户参与创造，定位于提供高度个性化的角色模型。

Page Assist - A Web UI for Local AI Models

Page Assist A Web UI For Local AI Models

Page Assist 是一个为本地 AI 模型提供便捷的 Web 用户界面的辅助工具。您可以利用本地 AI 模型与浏览器交互，或者将其作为本地 AI 模型供应商（如 Ollama Repo）的 Web 用户界面。当前功能包括侧边栏任务支持、视觉模型支持、最小化的本地 AI 模型 Web 用户界面、互联网搜索功能、侧边栏上的 PDF 对话框、文档聊天（PDF、CSV、TXT、MD 格式）等。

IOPaint

IOPaint 是一个免费、开源且完全可自托管的修复 / 填充工具，使用最先进的 AI 模型。它可以帮助用户删除图像中的不需要的对象、修复瑕疵、添加新对象、扩大图像等。

Modeli.ai

Modeli.ai 是下一代 AI 模型，利用 AI 模型快速生成视觉吸引力强、成本效益高的时尚服装描述。它可以节省 80% 的拍摄成本和时间，增加产品的图片数量，提高转化率。

Generative AI by iStock

Generative AI By Istock

iStock 提供 3,600 多张由 AI 模型生成的照片。用户可以在这个网站上搜索高质量的照片，这些照片都是使用 AI 技术生成的，用户可以在其他地方找不到这样的照片。

WindowsAI Studio

Windowsai Studio

Windows AI Studio 通过将来自 Azure AI Studio Catalog 和 Hugging Face 等目录的先进 AI 开发工具和模型集合在一起，简化了生成式 AI 应用程序的开发。您可以浏览由 Azure ML 和 Hugging Face 提供支持的 AI 模型目录，将其下载到本地，进行微调、测试并在 Windows 应用程序中使用。所有计算都在本地进行，请确保您的设备能够承受负载。未来，我们计划将 ORT/DML 集成到 Windows AI Studio 工作流中，以便开发人员可以在任何 Windows 硬件上运行 AI 模型。

Lama Cleaner

Lama Cleaner 是一个免费、开源的 AI 图像修复工具，基于最先进的 AI 模型。它可以删除图片中的任何不需要的物体、瑕疵或人物，也可以擦除和替换图片中的任何物体。该工具支持 CPU、GPU 和 M1/2，并提供多种 SOTA AI 模型可供选择。

Brancher.ai

Brancher.ai 是一款无需编码知识即可连接和使用 AI 模型创建强大应用的平台。用户可以快速、轻松地创建 AI 应用，利用 AI 的潜力构建独特而复杂的应用。该平台还提供了将您的创作共享和商业化的机会，使您有可能从中获益。

Stable Diffusion XL 1.0

Stable Diffusion XL 1.0

Stable Diffusion XL 1.0 是一款先进的 AI 文本到图像生成模型，具有更准确的颜色、更高的对比度和更细致的细节，适用于开发人员和客户。该模型拥有 3.5B 参数基础模型和 6.6B 参数模型组合管道，可以快速生成多种宽高比的 1 兆像素分辨率图像。Stable Diffusion XL 1.0 在 Amazon Bedrock 上可通过 API 访问，也可在 Stability AI 的 Github 页面、Clipdrop 和 DreamStudio 应用程序中使用。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase